JSAI2026 Model Router を使った逐次 LLM 選択による毀損低減効果の検証
テーマ
実サービス上で、複数のLLMから報酬が高くなりそうなモデルを逐次的に選ぶModel Routerの検証
通常のA/Bテストよりも、検証中に生じる報酬毀損を減らせるかに注目する
頻繁にLLMの入れ替えを迫られる
パフォーマンス 3ヶ月
EOL 12ヶ月
仮にA/Bテストに6ヶ月かけても、受益できるのは残りの6ヶ月だけ
→ 静的に検証するのではなく、実サービスの報酬を見ながら逐次的に選択しよう
Model Router
報酬が高そうなLLMへ徐々に多く割り当てる
バンディットアルゴリズムを使う
Router自体のレイテンシがCVRに悪影響を与えないようにしている
検証中の機会損失を減らす
検証対象
宿泊予約サービスにおける、宿泊施設の「アピール文」生成
じゃらん
#聴講メモ